省大数据局关于申报2024年高质量数据集工作的通知
为贯彻落实《关于促进全国一体化算力网络国家(贵州)枢纽节点建设的若干激励政策》中明确提出的“归集高质量基础训练数据集,支持各类市场主体通过贵州省数据流通交易平台提供高质量数据集,为开发、训练、应用大模型提供支持,每年安排资金总额不超过500万元,对训练使用量、数据质量等综合排名前10的市场主体给予奖励”的相关要求,省大数据局将组织开展高质量数据集排名评比工作,对排名前10名的单位实施奖励。现将具体内容通知如下。
一、支持对象
在贵州省内注册,并通过贵州省数据流通交易平台完成数据集登记的有关单位。
二、申报条件
(一)选取科学、制造、农业、能源、交通、金融、医疗、教育、消费、互联网治理、人力资源、公共安全、环保等重点行业,汇聚一批包含文本、图像、音频、视频等多模态的行业高质量数据集。
(二)数据重复率不高于5%,具备准确、全面的文本描述,符合同一格式规范可以直接用于大模型训练。
1.同一单位可以申报同一行业的多个数据集,涵盖两种及以上模态数据的可适当放低标准。各模态数据要求如下:
①文本数据不低于100G;
②图像数据不低于200G,图像数量不低于10万张、规格不低于768×1024像素;
③音频数据不低于3000小时;
④视频数据不低于20TB,清晰度不低于720P。
2.应开放测试数据,测试数据不低于100条。
3.申报数据集不得包含已开源的行业高质量数据集,近5年数据占比不低于50%,数据具有定期更新机制。
4.数据集不包含违反社会主义核心价值观的内容。
(三)申报单位须生产经营状况和信用记录良好,在“信用中国”网站(www.creditchina.gov.cn)、中国政府采购网(www.ccgp.gov.cn)、“国家企业信用信息公示系统(贵州)(http://gsxt.amr.guizhou.gov.cn)”等渠道中查询未被列入失信被执行人名单、重大税收违法失信主体名单。
三、提交资料清单
(一)单位资料
1.企业营业执照副本或事业单位法人证副本(加盖单位公章);
2.经贵州省数据流通交易服务中心颁发的数据商凭证;
3.单位基本情况(加盖单位公章);
4.申请报告(加盖单位公章);
5.上一年度审计报告(加盖单位公章);
6.未被列入失信被执行人名单、重大税收违法失信主体名单相关印证材料(加盖单位公章);
7.申报材料真实性承诺书(加盖单位公章);
(二)数据集资料
1.数据集基本情况介绍(包括数据集简介、模态类型、数据规模、地域范围、时间范围、更新机制、文本描述等);
2.数据集所含数据的来源印证材料;
3.经贵州省数据流通交易服务中心颁发的数据要素登记凭证;
4.评选指标符合性对照表;
5.测试数据集(提供U盘);
6.已合作或意向合作大模型相关印证材料;
四、评比流程
(一)报名阶段。有意向申报的单位按照通知要求提交报名材料并相关证明材料等。
(二)初筛阶段。省大数据局对申报材料进行初步审核,确定符合参评条件的单位名单。
(三)评审阶段。邀请专家组成评审团,对申报数据集进行综合评价,确定排名。
(四)公示阶段。对评审结果进行公示,接受社会监督。
五、申报时间及方式
请于9月10日前,将纸质申报材料一式三份,并拷贝一份电子申报材料及测试数据集U盘交到贵州省大数据发展管理局数据资源处。
六、联系方式
联系人及电话:吕东,18198344340
联系地址:贵州省大数据发展管理局数据资源处1003办公室(贵阳市云岩区北京路191号贵旅大厦)
附件:
2024年9月2日
来源 | 贵州省大数据发展管理局
请点击下方“阅读原文”下载附件